检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 云环境下软件错误报告自动分类算法改进

黄伟, 林劼, 江育娥

计算机应用 2016, 36 (5): 1212-1215. DOI: 10.11772/j.issn.1001-9081.2016.05.1212

摘要（517）

PDF （705KB）（399）

用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频-逆文档频率(TF-IDF),考虑到词条在类间和类内出现情况对文本分类的影响,提出一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法,同时在Hadoop平台下使用MapReduce计算模型实现该算法的分布式版本。实验结果表明,改进的多项式朴素贝叶斯算法将 F1值提高到71%,比原算法提高了27个百分点,同时在海量数据下可以通过拓展节点的方式缩短运行时间,有较好的执行效率。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于分布式架构的时间序列局部相似检测算法

林炀, 江育娥, 林劼

计算机应用 2016, 36 (12): 3285-3291. DOI: 10.11772/j.issn.1001-9081.2016.12.3285

摘要（631）

PDF （1125KB）（482）

基于动态时间规整算法思想的CrossMatch算法可以用来解决序列间的部分相似问题，但是由于算法时间空间复杂度过高，需要消耗大量的计算资源，因此无法应用于长序列之间的计算。针对以上问题，提出了一个基于分布式平台上的时间序列局部相似性检测算法。将CrossMatch算法实现在了分布式框架上，解决了计算资源不足的问题。首先需要对序列进行切分，分别放置在不同的节点上；其次，各节点分别处理各自序列的相似部分；最后，通过对结果进行汇总并拼接，找出序列间的局部相似。实验结果表明，该算法在准确性上和CrossMatch相近，在时间上也有提升。改进后的分布式算法不仅解决了单机无法处理的长序列计算问题，而且可以通过增加并行计算节点数提高运行速度。

参考文献 | 相关文章 | 多维度评价